instance segmentation之DWT

论文简介

关于实例分割的研究进展

  • 传统的分水岭算法容易造成过分割。改进的分水岭算法有
    • 首先预估instance的位置,然后再确定basin。
    • 启发式优化算法对分水岭算法的basin的相对深度进行估计,但是模型精度较差。
      上面2种方法实现起来都比较困难。
  • 基于候选区域的refinement
  • 深度结构化模型:结合DNN与CRF等
    模板匹配:使用CNN提取图像特征,对一个instance中的每个pixel赋予label
  • RNN:记录上一帧instance分割结果,用于预测下一帧的instance分割。
  • 使用CNN与通用的聚类算法,直接给出instance的数目与bounding box,同时给出每个pixel的置信度得分。
  • 递归候选区域

主要优点

  • 直接学习分水岭变换的能量,每个basin都对应一个instance,同时分割脊在能量域中的高度都相同。
  • 主要使用了end-to-end的深度分水岭算法,模型精度比state-of-art好很多。
  • 分割结果与instance的个数无关,这与一些RNN方法不同。

流程

  • 模型将RGB原图与语义分割结果作为输入,相当于是一个4-channel的图像,本文中使用了PSPNet的语义分割结果。
  • 过滤掉语义分割中的背景部分。
  • 对语义分割结果的label进行缩放,使其成为等间隔的。
  • 构建Direction Network,输出为每个像素的能量梯度(x&y,共2通道),在这里面,使用VGG-Net进行特征提取,将MSE作为DN的损失函数。
  • 构建Watershed Transform Network(WTN),损失函数是修正的交叉熵函数。
  • 构建级联网络,对网络进行fine-tune,将groud truth的距离变换作为训练目标。
  • 后处理:对instance分割结果进行膨胀等结构化的处理,去除一些面积很小的instance。